查看原文
其他

连载(4):统计图形艺术——直方图

easyPlot图形小组 百步优解
2024-11-28


中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。

生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。

历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。




04
直 方 图Histogram



图形溯源

直方图,由英国著名的统计学家Karl Pearson于1895年首次提出。将所有数据等距分为若干组,每组所对应“柱子”的高度代表该组的样本数占总数之比例,以直观展示同质样本中数值变量的分布 【1】。Pearson曾收集了欧洲250位君主在位年限,以3年为距绘制直方图(图 4.1),直观可见在位9-12年者最多,罕见在位超过50年的君主 【2】

图4.1Karl Pearson所绘制的欧洲250位君主在位年限分布





应用场景
  1. 常用于展示连续性数据分布情况,用于预判数据之分布,亦可发现潜在离群值。

  2. 金字塔图通常用于显示所有年龄组和男女人口的分布情况。





应用示例


01常规直方图Regular Histogram





例: 本节将以江苏省13088名青少年体质指数(body mass index, BMI)和身高等体检数据为例,示范直方图的绘制和应用。


首先,将BMI等间距分为30组,以BMI为横坐标,以各组频数作为纵坐标,作直方图(图 4.2)。





图4.2:江苏省13088名青少年

体质指数分布直方图









02直方图间距Histogram Bins





例:续上例



若将BMI等间距分别分为5、10、15、20、35、50组并绘制直方图(图 4.3)


如图所示,随着组数的增加,条图将越来越窄,直方图所展示的数据分布越发接近其实际分布。随着组数的增加,直方图和核函数拟合曲线趋于重合。






图4.3:江苏省13088名青少年

体质指数分布直方图









03变色直方图Colored Histogram 





例:续上例。


纵坐标亦可换为频率,X轴上可增加轴须以体现数值密度,各柱可按照BMI从小到大设置阶梯色以增加区分度,直方图上可叠加核密度拟合曲线 (图 4.4)。





图4.4:江苏省13088名青少年

体质指数分布直方图









04分组直方图Stratified Histogram






若数据内部存在异质性,则须绘制分层直方图。


例如,不同年龄段青少年身高分布不同,则将青少年的身高按照年龄分层(小学:年龄 7-12岁,初中:年龄 13-15岁,高中:年龄 16-18岁)作身高分布直方图叠加图,可知各年龄组青少年的身高分布差异。亦可通过参数 position=dodge 绘制簇状直方图(图 4.5)。






图4.5:江苏省13088名青少年

按学制等级分组身高分布直方图










05对称直方图Shadow Histogram





例:续上例。



若进一步考虑性别的身高差异,则可绘制上下对称的直方图,上下对照,避免了直方图互相遮蔽,又直观反映组间分布差异,亦称为蝴蝶图(图 4.6)。





图4.6:江苏省13088名青少年

按学制等级分组的性别对称直方图










06堆叠直方图Stacked Histogram





例:以上海奥密克戎疫情期间每日症状前感染者数据为例。



2022年2月26日上海发生奥秘克戎疫情,据统计从3月1日至6月6日,上海累计新增本土病例64.9万例,其中确诊病例64.9万例,无症状感染者59.1万例。


我们构建动力学模型模拟合真实数据并估算自2月26日至5月31日上海每日现存症状前感染者(presymptomatic case)人数,其中 P1和P分别代表在大规模核酸检查中未被发现(P1)和被发现(P2)的症状前期感染者(图 4.7)。






图4.7:上海奥密克戎流行期间

现存感染者堆叠直方图










07金字塔图Pyramid Histogram






金字塔图,是背靠背的直方图,常用来展示某人群的人口年龄结构,也被称为人口金字塔(population pyramid),用于显示所有年龄组和男女人口的分布情况。


X轴通常表示人口,Y轴为年龄组别,用于检测人口结构的变化。


例:本例将展示全国第六次人口普查年龄结构分布(图 4.8)。






图4.8:2010年中国第六次

人口普查年龄结构










08峰峦图Ridges Plot





峰峦图又称山峰图,其本质属于多密度分布图形的错位排列,用来展示多组的某一连续性数据的分布情况。


例1: 本例以江苏省13088名青少年身高数据为例,按学制分为3组,用峰峦图展示不同学制学生身高分布差异(图 4.9)。






图4.9:江苏省13088名青少年

按学制等级分组身高分布峰峦图



例2: 本例以每日新增病例数绘制峰峦图展示新冠局部疫情此起彼伏之势(图 4.10)。



据统计,从2020年5月我国第一波新冠疫情结束,至2022年2月7日,我国本土局部疫情累计病例数大于等于50例的共涉及27个城市。






图4.10:2020-2022年中国27个城市

新冠局部疫情峰峦图










09螺旋直方图Spiral Histogram






螺旋直方图基于阿基米德螺旋坐标系,常用于绘制随时间变化的数据,用来展示数据的周期性或变化趋势。


例: 本例展示上海市2017年至2020年4年日均PM2.5浓度变化情况(图 4.11)。



在我国标准中,24小时PM2.5平均浓度限值为75微克/立方。


由图可见,上海市日均PM2.5浓度在这四年中大部分都低于限值(图 4.11)。






图4.11:上海市2017-2020年日均

PM2.5浓度变化之螺旋直方图
















注意事项:
  1. 不适合于样本量较小的研究(如不足百例),此时直方图无法准确反映数据的分布。
  2. 分组不宜过多,以免出现“过拟合”现象。
  3. 若嫌学术派略显沉闷,可以采取非学术派的“惊艳”配色——商业化hist配色。



以上为直方图在医学研究中的常用场景示例,尚有更多扩展。篇幅有限,欢迎联系获取源码。
参考文献:
  1. Pearson K. Contributions to the mathematical theory of evolution. II. Skew variation in homogeneous material. 1895.

  2. Trustam PCF. BIOMETRY AND CHRONOLOGY. 1928;20A(3-4):241–62.






写作:魏永越*,张隆垚尹晓晓

排版:李   颖

审阅:陈   峰


关注公众号,联系获取源码


欢迎供稿 | 敬请斧正

easyPlot小组 (easyplot@126.com)

责任作者 (weiyongyue@126.com)


Powered by 



END




往期回顾BREAK AWAY


连载(1):统计图形艺术——条形图

连载(2):统计图形艺术——线图


连载(3):统计图形艺术——饼图



统计图形艺术——“图形”英文词意辨析




继续滑动看下一个
百步优解
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存